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摘 要 : 针对 目前 自然 语言 处 理 研究 中 ， 使 用 卷 积 神经 网 络 (CNNO 进行 短文 本 分 类 任务 时 可 以 结合 不 同 神 经 网 络 结 
构 与 分 类 算法 以 提高 分 类 性 能 的 问题 ,提出 了 一 种 结合 卷 积 神经 网 络 与 极速 学 习 机 的 CNN-ELM 混合 短文 本 分 类 模型 。 
使 用 词 向 量 训练 构成 文本 矩阵 作为 输入 数据 ， 然 后 使 用 卷 积 神经 网 络 提取 特征 并 使 用 Highway 网 络 进行 特征 优化 ， 最 
后 使 用 误差 最 小 化 极速 学 习 机 (EM-ELM) 作 为 分 类 器 完成 短文 本 分 类 任务 。 与 其 他 模型 相 比 ， 该 混合 模型 能 够 提取 更 
有 具 代表 性 的 特征 并 能 快速 准确 地 输出 分 类 结果 。 在 多 种 英文 数据 集 上 的 实验 结果 表明 提出 的 CNN-ELM 混合 短文 本 分 
类 模型 比 传统 机 器 学 习 模 型 与 深度 学 习 模 型 更 适合 完成 短文 本 分 类 任务 。 
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Hybrid CNN-ELM model for short text classification 
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Abstract: In current Natural Language Processing research, people can combine different neural network structure and 
classification algorithm when using Convolution Neural Network (CNN) to conduct text classification tasks so as to improve 
the classification performance. Thus, this paper proposed a hybrid CNN-ELM model for short text classification. Firstly, the 
model used word vectors to represent sentence as the input data. Secondly, it extracted features through CNN and completed 
features optimization with Highway network. Finally, it used error minimization extreme learning machine (EM-ELM) as a 
classifier to complete text classification task. Compared with other models, the proposed model could extract more representative 


features and output classification results more quickly and accurately. According to the experimental results in various English 


data sets, the proposed model is more suitable for short text classification tasks than traditional machine learning models and 
deep learning models. 
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汇 语法 、 语 义 信 息 的 词 向 量 转换 方式 。 这 种 使 用 训练 过 程 的 算 

法 将 词汇 的 相似 性 表达 为 向 量 空间 的 相似 度 ， 极 大 地 保留 了 词 
深度 学 习 近 年 来 在 自然 语言 处 理 (NLP) 的 应 用 越 来 越 广 ” 汇 的 语义 与 语 境 信息 & 353。 借助 于 词 峰 套 的 帮助 ， 对 文本 使 用 深 

泛 ， 短 文本 分 类 更 是 其 中 重要 的 一 部 分 。 短 文本 分 类 是 指 对 有  ” 上 度 学 习 以 提 取 丰 富 的 特征 就 成 为 了 可 能 。 

价值 的 短文 本 信息 进行 分 类 处 理 ， 其 在 目前 的 信息 社会 中 有 着 卷 积 神经 网 络 〈CNN ) 作为 深度 学 习 中 最 具 代 表 性 的 结构 

非常 重要 的 意义 。 在 短文 本 分 类 中 最 关键 的 问题 是 文本 特征 的 之 一 ， 其 在 文本 处 理 中 的 应 用 已 相当 广泛 。 在 这 些 CNN 结构 


hil 


0 5l 


En 


提取 ， 传 统 的 特征 提取 方法 诸如 MIID、pLSAP、LDADI 等 会 名 HiH, Kim T 2014 年 提出 的 CNN 模型 中 很 好 的 证 明了 词 向 量 
各 文本 中 的 上 下 文 关 联 信息 从 而 不 能 准确 获取 词汇 的 语义 。 应 用 在 简单 CNN 结构 上 所 能 对 文本 分 类 产生 的 巨大 影响 ， 这 

近年 来 ， 深 度 学 习 在 图 像 识 别 与 手写 识别 的 惊人 表现 有 目 也 使 得 该 模型 成 为 了 CNN 应 用 在 自然 语言 处 理 中 最 有 具 代 表 性 
共 睹 。 但 若 要 使 用 深度 学 习 实 现 文本 处 理 就 需要 将 文本 进行 数 ”的 模型 之 一 。 在 此 之 后 ，Mandelbaum 等 人 在 TensorFlow 上 实 
字 化 的 表示 。 词典 套 Cword embedding) 是 目前 最 有 效 的 保留 词 ” 现 了 Kim 的 模型 并 进行 了 相关 改进 ,进一步 提高 了 CNN 模型 
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向 量 相 


M 


在 多 种 英文 分 类 数据 集 上 的 分 类 精确 度 。 在 国内 的 研究 中 ， 陈 
钊 等 人 外 将 情感 词典 识别 构成 的 二 值 特征 与 

这 种 添加 外 部 辅助 特征 的 方法 显著 提高 了 CNN 模型 
的 情感 分 析 能 力 ， 刘 龙 飞 等 人 包 证 明了 使 用 字 级 别 特征 进行 
CNN 情感 分 析 比 词 级 别 更 有 效 ; HA TROP A AUTEURS [8138 XE EI T] 
结合 作为 CNN 的 输入 来 完成 实体 关系 抽取 工作 ， 该 模 
型 的 宏 平均 Fl 值 比 CNN、RNN 模型 更 高 。 这 些 方法 大 多 集中 
在 CNN 结构 的 输入 与 特征 表达 的 改进 上 ， 除 此 之 外 ， 将 CNN 


相 结 合 ， 


CNN 提取 的 特征 


综 上 所 述 , AChE H 
fll CNN 与 ELM 在 区 


的 结合 


一 种 CNN-ELM 混合 短文 本 分 类 模型 ， 
SUR I], 本 文 模 型 使 月 


AS 


网 络 。 同 时 ， 对 EL 
nk pus, 


E 卷 积 方式 获取 特 和 


结合 多 层 Highway 


AE 


M 的 改进 也 不 仅 


局 限 在 优化 参数 和 


特征 提取 模型 与 不 同 的 分 类 原理 相 结合 亦 能 够 有 效 的 提升 模型 
的 性 能 。 


， 将 CNN 与 不 同 的 分 类 原理 相 结合 的 最 常见 方式 是 


将 CNN 与 SVM 相 结合 , 这 种 方法 已 经 被 应 用 在 情感 分 析 与 人 


脸 识 别 中 六 
而 , 在 实验 


F 获 得 了 比 传统 CNN. 分 类 模型 更 好 的 结果 路 起 。 然 


中 使 用 交叉 验证 法 (Cross Validation? 划分 训练 与 测 


试 集 时 ,SVM 会 产生 较 大 的 时 间 损 耗 来 确定 其 自身 的 参数 ， 同 


时 其 性 能 依旧 有 提升 的 空间 。 


B i 


提出 的 极速 学 习 机 ELM) 03 是 一 种 强大 的 机 器 学 


习 模 型 ， 


已 是 一 种 可 以 随机 选择 隐 层 节点 数 并 计算 输出 权重 的 


来 获取 最 优 结 果 。 本文 模 型 通过 使 
优 结果 的 功能 ， 该 方法 能 够 避免 大 量 测试 所 需 的 时 i 
E 多 种 英文 短文 本 分 类 数 所 


实验 


需要 大 量 的 隐 


H— 
网 络 构成 深度 
的 初始 化 
慨 节 点 数 测试 


用 EM-ELM ï 


表明 ， 本 文 模型 如 
的 性 能 比 传统 机 器 学 习 分 类 模型 和 传统 卷 积 # 
秀 。 本 文 创新 点 为 :将 卷 积 神经 网 络 与 极速 学 习 机 原理 相 


DIDI 


网 直接 输出 最 
uf LE 
EpL 


提高 了 模型 的 泛 化 能 力 ， 有 效 提 高 了 分 类 效果 ; 在 混合 模型 中 
加 入 Highway 网 络 层 进行 特征 优化 , 进一步 提高 了 模型 的 性 能 ， 
同时 也 研究 了 不 同 Highway 网 络 层 数 对 本 文 混合 模型 分 类 性 能 
的 影响 。 
1 ”数据 预 处 理 与 文本 的 词 向 量 表示 
1.1 数据 预 处 理 

由 英文 短文 本 数据 集 ， 这 些 短文 本 中 的 语言 表 


别 领域 中 得 到 了 实现 053， 但 还 未 有 人 在 文本 处 理 


究 。 极 速 学 习 机 的 泛 化 能 力 ， 但 获取 极速 学 习 机 


单 隐 层 前 馈 神 经 网 络 (SLFNs ), 它 的 特点 是 泛 化 能 力 强 且 拥有 


达 具 有 网 络 语言 相 


非常 快 的 学 习 速 度 ,， 有 研 


RAN, EEK, KREA 


f 究 表明 ELM 分 类 器 比 SVM 分 类 器 更 
几 与 卷 积 特 征 相 结合 的 方法 在 个 


中 进行 相关 研 


的 最 优 结果 大 多 是 通过 人 工 统计 来 实现 的 。 作 为 极速 学 习 机 的 


力 。 因 此 ， 将 卷 积 
提高 短文 本 分 类 必 

受 LSTM PI2& f 
Highway 网 络 ， 通 过 对 
构 的 特征 优化 ， 该 网 络 能 够 有 效 解 区 
时 难以 有 效 收 敛 的 问题 ,在 具体 应 用 
这 种 新 的 网 络 结构 分 别 与 CNN. 及 全 连接 网 络 术 
行 了 相关 实验 [ 


发 ，Srivastava 等 人 [7 


深度 神经 网 络 提取 的 特征 


\ 化 极速 学 习 机 (EM-ELM) 09 的 提出 使 极 
自动 计算 最 优 解 并 持续 更 新 网 络 输出 权重 的 能 
经 网 络 与 误差 最 小 化 极速 学 习 机 相 结 合 以 


F 2015 年 提出 了 
进行 类 似 门 结 


深度 学 习 中 多 


f£ 


层 网 络 训练 


E, R.K. Srivastava 等 人 将 
卓 结 合并 以 此 进 
E E (CIFAR,MNIST 等 ) 


属性 ， 所 以 这 使 得 短文 本 分 类 任务 


面临 诸多 挑战 。 本 文 在 进行 数据 预 处 理 时 ， 普 遍 采 用 清洗 文本 


的 手段 来 将 标点 符号 与 不 相关 的 符号 剔除 ， 从 而 减轻 词 向 量 转 


换 与 分 类 工作 的 工作 量 。 考 虑 到 短文 本 数据 集中 存在 较 多 的 网 
页 地 址 、 符 号 、 符 号 表情 等 复杂 属性 ， 本 文 使 用 正则 表达 式 识 


符号 与 文字 归 为 超出 词典 的 情况 ， 并 在 词 向 量 训 练 时 将 其 
为 具有 随机 值 的 词 向 量 。 
1.2 文本 的 词 向 量 表示 


站 


别 网 址 标记 (http)、@ 符 号 、 话 题 符号 (区) 与 简单 的 符号 表情 ， 
将 非 英 文 文字 转换 为 特征 标记 。 最 后 ， 本 文 将 所 有 未 识别 的 
转换 


词 向 量 的 定义 有 很 多 种 ， 其 中 最 广 为 认 可 的 是 词 向 量 是 一 


个 词 的 数字 化 表示 ， 这 通常 是 以 向 量 的 形式 呈现 出 来 的 。 


的 实验 了 Highway 网 络 的 深度 神经 网 络 获得 了 
更 高 的 精确 度 。 
除 里 之 外 ，Kim 将 Highway 网 络 应 用 在 自然 语言 处 


验 表明 Highway 网 络 能 够 
模型 中 Highway 网 络 为 2 

Wei-Ning Hsu 等 人 Do 在 使 用 
CLDNN 模型 的 基础 上 ， 在 LSTM H 
层 数 与 优化 网 络 特征 的 功能 。 


深 网 络 


的 模型 将 CNN 与 Highway 网 络 、 
种 语言 分 析 任务 09。 
性 ， 在 PTB 数 ] 


并 使 用 字符 级 输入 完成 多 语 
了 Highway 网 络 在 该 模型 


对 CNN 提取 出 的 特征 进 
层 时 性 能 最 优 。 在 语音 识 另 
CNN, LSTM, DNN 三 种 模型 构成 
HJIILA Highway 


LE EE 


LSTM 相 结 合 
同时 他 也 分 析 


表示 就 有 着 极其 重要 的 意义 。 


最 初 ， 人 们 使 用 One-hot 词 向 量 来 表示 词汇 ， 这 种 方法 


更 准 
确 的 来 说 ， 词 向 量 是 将 一 个 词 所 代表 的 语义 与 对 该 词 通过 非 监 
督 训练 方法 得 到 的 向 量 关联 起 来 的 一 种 技术 。 与 图 像 本 身 就 
丰富 的 、 高 维度 的 向 量 不 同 ， 文 本 语言 不 能 直接 作为 数据 控 
算法 的 输入 数据 来 进行 更 深层 次 分 析 ， 所 以 将 其 进行 离散 化 的 


用 一 个 向 量 来 表示 一 个 词 ， 向 量 的 长 度 为 词典 的 大 小 ， 向 量 的 


是 


iE 


HE 


据 集 上 的 实 


行 优化 且 该 


分 量 只 有 一 个 1, 其 他 全 为 0, 其 中 分 量 1 的 位 置 对 应 该 词 


H 


| 的 应 用 上 ， 


网 络 实现 加 


这 种 新 的 模型 在 中 文 广播 


上 获得 了 超越 以 往 任何 模型 的 最 优 性 能 。 


词典 中 的 位 置 。 这 种 方法 虽 简 单 易 行 却 也 有 着 明显 的 缺点 ; 
容易 受 维 数 灾难 的 困扰 ， 对 短文 本 数据 采用 这 种 方法 构建 词 
量 往往 会 造成 词 向 量 非常 稀 疏 ,尤其 是 将 其 用 于 深度 学 习 中 羽 
一 些 算法 时 ; b) 不 能 很 好 地 刻画 词 与 词 之 间 的 相似 性 , 即 “ 词 汇 


鸿沟 ”现象 : 任意 两 个 词 之 间 都 是 孤立 的 , 单 从 这 两 个 向 量 
能 看 出 这 两 个 词 是 否 有 联系 。 


a) 
问 
的 


不 


为 了 弥补 One-hot 词 向 量 的 不 足 ，Hinton 提出 了 一 种 叫做 
word embedding 的 词 向 量 表示 方法 ， 这 种 方法 的 主要 思想 是 将 
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词 分 布 式 地 映射 到 低 维 空间 中 , 从 而 解决 了 向 量 稀 玻 性 的 问题 。 
此 外 ， 该 低 维 空间 中 词 向 量 之 间 的 位 置 关 系 可 以 很 好 地 反映 它 
们 在 语义 层面 上 的 联系 ， 使 其 非常 适合 作为 文本 的 高 层 抽象 特 


征 。 


目前 ， 大 部 分 人 使 用 Google 于 2013 年 发 布 的 用 于 训练 词 
句 量 的 软件 工具 Word2Vec!。 它 根据 给 定 的 语料库 ， 通 过 优化 
后 的 训练 模型 快速 有 效 的 将 一 个 词语 表达 成 向 量 形式 ， 该 工具 
的 核心 架构 包括 Continuous bag-of-word (CBOW) 和 Skip-gram. 
就 原理 上 来 讲 ，CBOW 从 上 下 文 语义 中 预测 目标 词 ， 而 Skip- 
gram 使 用 目标 词汇 来 预测 句子 文本 的 上 下 文 语义 。 本 文 使 用 
Skip-gram 模型 来 训练 词 向 量 , 因为 在 大 容量 的 数据 集 上 它 的 性 
能 比 CBOW 更 好 。 该 词 向 量 训练 模型 结构 如 图 1 所 示 : 


w(n-2) w(n-1) w(n-1l) wan+2) 


输出 层 


隐藏 层 


输入 层 


wn) 


图 1 词 向 量 训练 模型 结构 示意 图 


假设 存在 一 组 词汇 wi wz ws, ws, Skip-gram 模型 的 目标 是 
将 下 列 公式 最 大 化 : 
1 N 
L-—, Y, logp(w,|w, 


其 中 :c 是 当前 词语 的 前 、 后 文 词汇 数 , c 值 越 大 则 模型 训练 效果 
越 优 秀 ， 但 时 间 消 耗 也 会 增 大 。 在 实际 应 用 中 ， 若 。 选择 恰当 
且 训练 语料库 足够 大 ， 就 能 在 短 时 间 内 得 到 高 质量 的 词 向 量 。 


(1) 


韩 众 和 ， 等 : CNN-ELM 混合 短文 本 分 类 模型 
文本 矩阵 被 转换 为 了 特征 向 量 
卷 积 特征 提取 层 Highway 网 络 层 极速 学 习 机 分 类 层 
zi. "n "n 
Gg ”最 大 池 化 民 © | ^f ` 
人 一 
xD 
FINT 
x 权 EO 455 
层 zl 
L— 恒 等 映射 
图 2 本文 混合 模型 结构 示意 图 


2.1.1 词 向 量 的 拼接 
在 输入 数 ] 


个 矩阵 代表 一 个 句子 ， 它 是 | 


居 的 处 理 上 ， 若 ”是 句子 中 位 置 为 的 上 维 
f. n 是 语 料 集中 最 长 句子 的 长 度 ，! 是 该 CNN 中 使 用 的 卷 积 
核 的 宽度 最 大 值 ， 那 么 , 输入 数 提 


词 向 


居 就 是 一 个 kx*(n+1-D) 和 矩阵 ， 这 一 


操作 之 后 构成 的 ， 该 连接 操作 可 以 表示 为 : 


操作 对 没有 达到 这 


2.1.2 卷 积 操作 


yw, 7v Gv, G...Ov,, 
其 中 : @ 是 连接 操作 符 。 在 本 文 模型 
句子 长 度 被 设 定 为 固定 值 CH f n] 


句子 中 所 有 词 的 词 向 上 


,为 了 更 方便 的 处 理 数 据 ， 
的 最 大 名 长) 使 
长 度 的 句子 矩阵 填补 (0-/ 个 0 向 量 ， 最 终 


得 到 的 词 向 量 个 数 是 n+17, 他 们 的 维度 都 是 (=300)。 


进行 连接 


Q) 


填补 


若 卷 积 核 的 宽度 ,维度 k， 其 代表 着 该 卷 积 窗 
这 些 词 向 量 来 产生 一 个 新 的 特征 。 在 本 文 模型 


词 向 量 ， 并 利 


口 包含 4 个 


中 ， 卷 积 核 宽度 是 多 样 化 的 ， 通 过 结合 不 同 的 卷 积 窗 
取出 的 特征 向 量 可 以 更 好 地 反映 这 一 句子 真 


在 本 文 实验 中 ， 文 本 词汇 被 训练 为 300 维 的 词 向 量 ， 其 训练 网 
络 是 使 用 Skip-gram 模型 在 包含 30 亿 训 练 语 料 的 Google News 
语 料 集 上 训练 所 得 到 的 。 之 后 ， 这 些 词 向 量 被 构建 为 文本 和 矩阵 
被 用 作 CNN 提取 文本 特征 的 输入 数据 。 


2 CNN-ELM 混合 短文 本 分 类 模型 


如 下 图 2 所 示 是 本 文 提 出 的 CNN-ELM 混合 模型 结构 示意 
图 ， 该 模型 使 用 经 过 词 向 量 转 换 后 的 文本 矩阵 作为 输入 。 卷 积 
特征 提取 层 使 用 不 同 大 小 的 卷 积 核对 输入 矩阵 进行 特征 提取 ， 
再 对 提取 出 的 向 量 进行 最 大 池 化 操作 ， 之 后 进行 拼接 获得 该 文 
本 和 矩阵 的 特征 向 使 用 多 层 Highway 网 络 进行 优化 。 最 后 ， 
经 过 优化 后 的 特征 向 量 被 当做 极速 学 习 机 分 类 层 的 输入 以 完成 
最 后 的 分 类 任务 。 
24 ” 卷 积 特征 提取 层 

从 结构 上 来 说 , 本 文 使 用 的 卷 积 特征 提取 层 是 Collobert 等 
ABPUfr$é CNN 结构 的 一 种 变形 。 通 过 该 层 的 处 理 之 后 ， 


il 


1 https://code.google.com/p/word2vec/ 


定 特征 向 量 a; 是 从 词 》 


其 中 : w 是 卷 积 核 的 权重 ， 


B Xi:i+h-1 中 产生 的 : 


所 提 


FE 的 语义 特征 。 假 


G) 


2 是 偏 置 项 ,， /是 非 线性 激活 函数 诸 


如 ReLU 或 者 Tanh。 类 似 于 上 述 这 种 卷 积 核 被 应 用 在 句子 rrw， 


X2:h , 715 Xn] P JA Tf A 


成 一 个 特征 向 量 a: 


a — [a 05... 8, 44], 


2.1.3 最 大 池 化 与 特征 向 量 输出 
在 获得 了 每 个 卷 积 核 生成 的 特征 向 量 之 后 ， 本 文采 取 最 大 


池 化 操作 获取 其 最 大 值 A-maxta), È 
得 了 卷 积 结构 提取 的 特征 向 量 。 
代表 性 的 特征 ， 同 时 


积 核 所 生成 的 最 
2.1.4 Dropout 


为 了 避免 训练 过 程 中 出 现 过 拟 合 的 情况 ,本 文 使 


(4) 


后 将 4 进行 拼接 ， 从 而 获 


操作 来 禁止 


部 分 隐 
元 不 参与 此 次 更 新 过 程 ， 从 而 使 权 值 的 如 


最 大 池 化 方法 旨 在 获取 不 同 卷 
效 降 低 了 空间 与 时 间 


] Dropout 
层 神 经 元 参与 前 向 传播 ， 这 使 得 这 些 神经 
EE 新 不 依赖 于 


固定 节点 


201 dtd 


EUNT 


录用 稿 


的 作用 ,之 后 , 本 文 对 Dropout 操作 后 得 到 的 向 量 使 用 Highway 
网 络 进行 优化 。 
2.2 Highway 网 络 优化 层 

受 LSTM 的 启发 ，Srivastava 等 人 提出 的 Highway 网 络 也 
是 一 种 可 学 习 的 门限 机 制 ， 在 该 机 制 的 作用 下 ，Highway 网 络 
能 够 对 信息 流 进 行 局 部 调整 从 而 实现 信息 流 的 优化 。 


Chi 
韩 众 和 ， 等 : om ELM VEN FRATI o 


T] T 
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此 网 络 只 需要 设 定 隐 藏 层 节点 个 数 ， 不 需要 调整 输入 权 值 
以 及 隐藏 层 上 的 偏 置 值 ， 并 且 可 以 通过 五 矩阵 和 隐藏 层 上 神经 


在 一 个 具有 工 层 的 传统 前 向 神经 网 络 中 ， 每 层 网 络 都 可 对 


IA x ERAB Wi 的 非 线 性 映射 变换 万 产生 输出 y, 表示 
为 


y= H(x,W,), (5) 
Highway 网 络 在 上 述 基 础 上 增加 了 两 个 非 线 性 映射 函数 T 
与 C， 使 得 输出 y 变 为 
y=H(x,W,) -T (x,W,) + x- CG,W.), (6) 
其 中 :7 被 称 为 转换 门 ，C 被 称 为 携带 门 。 为 了 简化 模型 ， 携 带 
门 C 通 常 被 设置 为 (1-D), 则 式 (6) 变 为 
y=H(x,W,): T(x,W,)+x:(1—T(x,W.)), (1) 
其 中 ;y 为 Highway 网 络 的 最 终 输出 。 在 式 (7) 中 ，x, y H, 了 的 
维度 必须 相同 ， 若 维度 不 足 则 进行 补 零 操 作 。 可 以 看 到 ， 
Highway 网 络 通过 转换 门 对 其 输入 的 信息 流 进行 处 理 ， 这 种 类 
似 于 高 速 公路 关卡 的 操作 改变 了 部 分 输入 信息 流 。 这 种 方法 已 
经 被 证 实 能 够 解决 深度 学 习 中 模型 难以 训练 收敛 的 问题 从 而 提 
升 模型 性 能 。 
在 本 文 模型 中 , Highway 网 络 层 实 现 了 对 卷 积 特征 的 优化 ， 
从 而 能 够 提高 模型 的 分 类 效果 。 同 时 ， 由 于 Highway 网 络 具有 
较 低 的 复杂 度 , 使 用 多 层 Highway 网 络 连续 优化 卷 积 特征 向 量 
并 不 会 增加 过 多 的 时 间 与 空间 损耗 ， 本 文通 过 实验 确定 
Highway 网 络 的 最 佳 层 数 ， 从 而 获得 最 优 特征 向 量 。 
2.3 极速 学 习 机 分 类 层 
极速 学 习 机 自 被 提出 之 后 便 在 分 类 与 回归 任务 中 展现 出 优 
异 的 性 能 。 给 定 离散 化 的 输入 数据 与 隐 层 节点 数 ， 极 速 学 习 机 
能 够 快速 计算 出 结果 ， 这 使 得 其 在 图 像 识 别 与 手写 数字 识别 中 
得 到 了 广泛 应 对 于 NV 个 不 同 的 学 习 样 本 


H 


LH 


Ge R,xR,,(i=1,2,...,N)， 极 速 学 习 机 的 基本 原理 可 以 被 
表示 为 : 
$ BgQw. bx) =0; j 212, N, 8) 
i-l 


EP: gw box) 表示 极速 学 习 机 的 隐 层 激活 函数 ， p 是 网 络 
输出 层 和 第 i 个 隐 层 神经 元 的 权 值 ，b 为 隐藏 层 神经 元 的 偏 置 。 
上 述 公式 可 被 简化 为 


Hf-T, (9) 
其 中 : 
gQw,b.x) g(Qwb5,x) 8(w, b x) 
H- gw,,b,x,) gOw.b5,x) 1 g(Qw.b.x) 
gOwn.b.xy) gOw.b.xy) 1 gv. bi xy) d 


元 的 偏 置 值 y SK Ia d fs D el, Ez RI n Es s T8 s HC EE 
B:B-HT Gib: Ht HHW Moore-Penrose J SYE RE). 

尽管 极速 学 习 机 有 着 快速 计算 与 泛 化 能 力 优异 的 特点 ， 但 
想 要 计算 出 其 最 优 解 往往 是 通过 人 工 统计 的 方式 来 进行 的 。i 
差 最 小 化 极速 学 习 机 (EM-ELMD)09 的 提出 解决 了 这 一 问题 
能 够 递归 地 向 网 络 中 添加 隐 层 节点 来 自动 计算 出 最 佳 结果 。 

给 定 训练 集 {(x,1)}*，、 最 大 隐 层 节点 数 Lus 与 期 望 学 习 准 确 
率 e>0，EM-ELM 计算 原理 为 如 下 两 阶段 : 


cr 

o 

- 
In 


阶段 1 初始 化 阶段 
初始 化 单 隐 层 前 向 神经 网 络 CSLEN ) 并 设置 初始 隐 层 节点 


数 (a,b) (其 中 ， Lo 为 正 整 数 ， 本 文 使 用 初始 节 点 数 Zo=7)。 
之 后 和 传统 的 ELM. 一 样 计算 隐 层 输出 矩阵 不 ， 并 计算 输出 误 


差 E(H,) -|H.nrT -T| - 


阶段 2 ”递归 计算 阶段 
4 k=0.While Lk<Lmax and E(Ho>e: 
k=k+7, 在 已 有 的 SLFN 上 随机 添加 oL, ,个 隐 层 节点 , 隐 层 
节点 数 变 为 LL=L ,+56L，， 隐 层 输 出 矩 阵 变 为 
H, =[H,6H,]。 之 后 使 用 递归 方法 更 新 输出 权重 p : 
D, -(U- H,H])óH,) 
U, = Hj - HjóH;D, 
scuro p 
= Hi D 


k 


end while 

在 训练 过 程 中 ， 首 先 使 用 训练 集 将 卷 积 神经 网 络 层 与 
Highway 网 络 层 训 练 至 收敛 ， 之 后 使 用 收 和 伊 后 的 模型 对 训练 集 
与 测试 集 文本 矩阵 进行 特征 提取 ， 将 提取 后 的 训练 集 与 测试 集 
特征 作为 误差 最 小 化 极速 学 习 机 的 输入 ， 实 现 如 图 2 的 混合 模 
型 总 体 架 构 ， 该 模型 在 误差 最 小 化 极速 学 习 机 进行 初始 化 与 递 
日 计算 后 得 到 最 佳 分 类 结果 


3 ”实验 与 分 析 


本 文 使 用 多 种 英文 短文 本 分 类 数据 集 来 完成 CNN- ELM 混 
合 短文 本 分 类 模型 的 性 能 测试 。 这 些 实验 在 拥有 256GB 内 存 与 
Intel i7 4.0-GHz CPU 的 服务 器 上 使 用 Python 2.7 与 TensorFLow 


s= 


0.9.0 完成 。 
3.1 实验 数据 
为 了 评估 本 文 模 型 ， 本 文 使 用 近 些 年 被 广泛 应 用 于 文本 分 


类 任务 的 英文 短文 本 数据 集 来 进行 模型 分 类 精确 度 的 测试 与 分 
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录用 稿 韩 众 和 ， 等 : CNN-ELM 混合 短文 本 分 类 模型 
析 ， 这 些 数据 集 包 含 MR?, SST-13, Subj, TREC*, Irony??l, 示 。 

Tweet5， 与 Polite2。 同 时 ， 本 文 也 爬 取 了 社交 媒体 网 站 中 的 用 表 2 数据 集 容 量 与 最 大 隐 层 节点 数 设置 

户 个 人 描述 数据 以 构成 Description 数据 集 并 进行 了 人 工 标注 ， 数据 集 容量 Imax 

经 过 一 致 性 检验 计算 其 Kappa 系数 为 0.83， 满 足 数 据 集 一 致 性 MR 10662 10000 

需求 ， 可 以 通过 该 数据 集 完成 账户 类 型 分 类 任务 。 上 述 各 数据 SST1 11855 10000 

集 的 详细 信息 如 下 表 1 所 示 : Subj 10000 10000 


dl 数据 集 详细 信 ， 


[m 


TREC 5952 6000 


数据 集 c l N |V| |Vpre| Test Irony 1074 1000 
MR 2 20 10662 18765 16488 CV Tweet 25552 20000 
SST1 — 5 18 11855 17836 16262 2210 Polite 4353 4000 
Subj 2 23 10000 21323 17913 CV Description 5293 5000 
TREC 6 10 5952 9592 9125 500 
Irony 2 75 107 6138 578 CV 期 望 学 习 准确 率 e: 9096; 
Tweet 10 39 25552 33438 17003 5964 初始 隐 层 节点 数 : 初始 为 1， 逐次 增加 D 个 节点 。 
Polite 2 53 4353 10135 7951 CV 3.3 实验 结果 与 对 比分 析 
Description 4 68 5293 13709 8409 CV 本 文 实验 首先 研究 了 Highway 网 络 对 分 类 结果 带 来 的 影响 ， 


通过 对 不 同 层 数 的 Highway 网 络 进行 实验 测试 ， 确 定 出 最 佳 
其 中 : “代表 着 目标 类 别 数 ，! 代表 着 该 数据 身 Highway 网 络 层 数 以 构建 本 文 分 类 模型 。 之 后 ， 将 本 文 模型 与 
度 , N 代 表 着 该 数据 集 的 容量 , 17 代表 着 该 数据 集 的 词典 容量 ， 多 种 机 器 学 习 算 法 相对 比 ， 其 中 既 包 含 了 多 种 传统 机 器 学 习 算 
IVprel 代 表 着 该 词典 中 在 Google 预 训练 词 向 量 数 据 集中 存在 的 ”法 及 其 改进 算法 〈 诸 如 LDA、 开 近邻 、 SVM、 朴素 贝 叶 斯 、 随 
词汇 数 ，7est 是 测试 集 容量 。 CV 代表 着 该 数据 集 并 没有 进行 训 ”机 森林 、 决 策 树 等 )， 也 包含 Mandelbaum 等 人 改进 的 CNN 
练 集 / 测 试 集 划 分 , 所 以 本 文 使 用 十 折 交 叉 验证 法 (10-fold Cross 。 文本 分 类 模型 。 最 后 ， 研 究 了 本 文 模型 的 不 同 网 络 结构 所 能 对 
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Validation ) 来 测试 其 分 类 性 能 。 分 类 结果 带 来 的 影响 。 

3.2 ”起 参数 设置 3.3.1 Highway 网 络 对 分 类 结果 的 影响 

3.2.1 词 向 量 训练 首先 通过 在 CNN 分 类 模型 上 结合 不 同 层 数 的 Highway 网 
本 文 使 用 Google Word2Vec 工具 进行 词 向 量 训练 ， 每 个 单 ARRUE Highway 网 络 对 分 类 结果 的 影响 ， 其 在 四 种 不 同 数 据 


词 被 训练 为 一 个 300 维 的 词 向 量 , 训练 方法 使 用 Skip-gram。 对 集 上 的 分 类 结果 如 上 图 3 所 示 。 从 图 中 可 以 看 出 ， Highway 网 
于 没有 在 Worder2Vec 中 出 现 的 单词 , 本 文 对 其 进行 随机 初始 化 络 对 不 同 数 据 集 的 优化 能 不 同 。 在 Irony 与 Polite 数据 集 


ra 


赋予 [-0.5，0.5] 的 随机 值 。 上 ，Highway 网 络 的 对 结果 的 提升 最 明显 ， 在 Description 数据 
3.2.2 卷 积 神经 网 络 E, Highway 网 络 也 能 够 小 幅 提升 分 类 结果 。 但 是 , 在 TREC 
输入 通道 : CNN-non-static; 数据 集 上 是 否 添加 Highway 网 络 对 结果 几乎 没有 影响 。 


卷 积 核 : 本 文 使 用 宽度 为 3，4，5] 的 卷 积 核 各 100 个 来 进 
行 卷 积 操作 ， 激 活 函 数 为 ReLU; 
Mini-Batch 规模 : 50; 
Dropout 参数 : 0.5， 仅 在 训练 中 有 效 ; 
优化 器 : ADAM 优化 器 ; 
学 习 率 : 0.001, 4$ 8 次 迭代 衰减 5096; 
3.2.3 Highway 网 络 - 
EG: 2; 60% 
门 偏 置 bias: 0; i Highway 网 络 导数 
非 线 性 映射 变换 H: ReLU; 
3.2.4 误差 最 小 化 极速 学 习 机 
激活 函数 : Sigmoid; 就 Highway 网 络 层 数 来 说 ， 在 Irony 与 Polite 上 的 结果 表 
最 大 隐 层 节点 数 Ima: 与 数据 集 容 量 几 乎 相同 ， 如 表 2 所 明 添加 2 层 Highway 网 络 进行 特征 优化 时 可 得 到 最 优 结果 ， 同 
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图 3 不 同 层 数 的 分 类 结果 对 比 
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时 在 Description 数据 集 上 较 原 模型 也 有 所 提升 。 所 以 在 之 后 的 Æ TREC 数据 集 上 , 图 3 已 表明 Highway 网 络 无 法 有 效 提升 分 
模型 中 本 文 都 使 用 2 层 Highway 网 络 进行 特征 优化 操作 。 类 效果 , 但 本 文 模 型 最 终 使 结果 提高 了 0.8%， 这 也 进一步 证 明 
从 理论 上 来 说 ，Highway 网 络 就 是 为 了 解决 极 深 的 神经 网 了 结合 极速 学 习 机 分 类 原理 的 有 效 性 。 同 时, 因为 2 层 Highway 
络 难以 训练 的 问题 。 几 百 甚 至 几 千 层 的 Highway 网 络 可 以 直接 ” 网 络 在 Irony 5j Polite 数据 集 上 有 着 显著 的 优化 能 力 ， 在 没有 
使 用 梯度 下 降 算 法 进行 训练 ,并 可 以 配合 多 种 非 线性 激活 函数 ， ”与 极速 学 习 机 结合 时 就 分 别 能 达到 75% 与 70.1% 的 精度 ， 所 以 
其 优化 方法 基本 与 网 络 的 深度 独立 ， 并 不 会 过 度 增 加 时 间 与 空 。 与 极速 学 习 机 相 结 合 就 能 进一步 提高 模型 分 类 性 能 。 
间 损 耗 。 但 是 在 实际 训练 过 程 中 ， 由 于 训练 数据 量 有 限 ， 过 多 3.3.3 本 文 模型 的 网 络 结构 对 分 类 结果 的 影响 
的 增加 网 络 层 数 会 导致 网 络 过 拟 合 从 而 使 模型 泛 化 能 力 下 降 ， 表 5 本文 模型 不 同 结构 的 结果 对 比 m 
本 文 测试 100 层 Highway 网 络 在 Polite 数据 集 上 的 结果 已 低 于 模型 结构 Description — SST-1 Subj Tweet Polite 
60%。 但 是 ， 随 着 未 来 数据 量 的 增加 ， 极 深 Highway 网 络 依旧 CNN-non-static 95.8 47.3 93.0 892 657 
有 着 非常 大 的 潜能 。 CNN-ELM 96.1 486 933 882 681 
3.32 工法 对 比 CNN-1Highway 96.8 485 93,5 89.6 692 
表 3 与 不 同 机 器 学 习 算 法 对 比 /% CNN-2Highway 96.3 49.8 937 882 70.1 
模型 精度 CNN-1Highway-ELM 97.3 488 93.7 881 70.2 
KNeighbors (k=4) 723 CNN-2Highway-ELM 96.7 518 943 881 713 
MultinomialNB 884 
Decision Tree(entropy) Bid 本 文 模型 在 CNN 基础 上 结合 Highway 网 络 与 极速 学 习 机 
DecisionTree(gini) "T 原理 以 完成 分 类 任务 ， 这 三 种 结构 的 不 同 结合 形式 及 其 在 不 同 
Re 03.1 数据 集 上 的 实验 结果 对 比如 上 表 5 所 示 。 可 以 看 出 ， 大 多 数 情 
Bagging 0d 况 下 仅 结 合 Highway 网 络 比 仅 结合 极速 学 习 机 对 混合 模型 的 提 
SVM(linear) 942 升 更 大 ， 在 Tweet 数据 集 上 仅 结 合 1 层 Highway 网 络 的 模型 更 
TDA 94.6 是 获得 了 最 高 精确 度 。 通 常 来 讲 ， 在 Highway 网 络 优化 后 结合 
CNN:rand 057 极速 学 习 机 往往 能 获得 最 佳 结 果 。 同 时 ， 在 Description 数据 集 
CNN.static 93.8 上 的 实验 表明 选择 正确 的 Highway 网 络 层 数 对 最 佳 结果 也 会 产 
PS rd 生 较 大 影响 。 综 上 所 述 ， 若 想 获 得 特定 任务 的 最 优 模型 依旧 需 
Acci uns 要 对 参数 与 模型 进行 多 次 调整 。 然 而 ， 通 过 人 工 测试 确定 最 佳 
模型 的 方法 过 于 复杂 ， 若 能 够 使 Highway 网 络 自动 选择 最 佳 层 
本 文 模型 与 传统 机 器 学 习 模型 在 Description 数据 集 上 的 实 。 ” 数 完 成 分 类 任务 ， 该 混合 模型 的 可 靠 性 就 能 大 幅 提 高 。 


仿 结 果 如 表 3 所 示 。 可 以 看 到 ， 卷 积 神经 网 络 的 出 现 刷 新 了 传 4 ”结束 语 

统 学 机 器 学 习 算 法 的 记录 ， 其 中 ，CNN-rand 与 CNN-non-static 

结果 相近 ， 这 是 因为 在 网 络 数 据 中 存在 大 量 的 新 词 、 表 情 、 链 、 ”本文 提 出 了 一 种 CNN-ELM 混合 短文 本 分 类 模型 ， 在 卷 积 神经 
接地 址 从 而 导致 该 数据 集 的 词典 中 将 近 一 半 的 词 都 没有 在 网 络 的 基础 上 , 该 模型 结合 了 极速 学 习 机 与 Highway 网 络 的 相 
Word2Vec 中 出 现 过 , 这 也 使 得 随机 赋值 的 词 向 量 在 词典 中 比重 关 理论 ， 获 得 了 较 原 有 模型 更 优秀 的 分 类 结果 。 实 验 表 明 ， 该 
较 大 ， 使 用 随机 模型 CNN-rand 也 就 与 词 向 量 模型 CNN-non- 方法 比 传 统 机 器 学 习 算 法 与 卷 积 神经 网 络 模型 更 有 效 。 未 来 研 
static 相差 其 微 。 在 卷 积 神经 网 络 的 基础 上 ， 本文 模型 首先 使 用 究 工 作 包 括 以 下 几 方面 : 改进 Highway 网 络 ， 通 过 增加 能 够 自 
Highway 网 络 对 卷 积 神经 网 络 提取 的 特征 进行 优化 ， 在 CNN- 动 选 择 最 佳 网 络 层 数 的 功能 ， 增 强 混 合 模型 的 可 靠 性 ， 通 过 添 
non-static 基础 上 提高 了 1% 的 分 类 精度 ， 同 时 结合 极速 学 习 机 加 外 部 特征 并 与 卷 积 特征 相 结 合 以 提高 分 类 性 能 ， 对 卷 积 神经 


分 类 原 Es HX 


终 将 分 类 结果 提高 到 了 97.3%。 


表 4 不 同 数据 集 上 的 结果 对 比 /% 


模型 


MR SST-1 Subj TREC Irony Tweet Polite 


CNN-non-static 


本 文 模型 


80.5 473 


93 


98.6 


81.4 51.8 94.3 99.4 


62.1 
76.6 


89.2 
88.1 


65.7 
71.3 


本 文 使 ) 
化 能 力 ,其 与 
可 以 看 出 ， 本 


文 模型 在 多 数 数据 外 


已 


上 获得 了 更 高 的 分 类 精度 。 


多 种 短文 本 分 类 数据 集 进一步 测试 本 文 模型 的 泛 
改进 的 CNN-non-static 模型 结果 对 比如 表 4 所 示 。 
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取 结 构 进行 改进 ， 通 过 与 其 


也 深度 神经 网 络 相 台 


de 
结合 


构成 更 深 
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